成果 | 我组论文被COLING 2024录用
北京时间2024年2月20日,国际计算语言学大会COLING 2024 论文接收结果公布,我组与东北大学、清华大学合作的一篇长文被大会录用。国际计算语言学会议 (International Conference on Computational Linguistics, COLING) 是自然语言处理领域重要的国际会议,由国际计算语言学委员会 (International Committee on Computational Linguistics, ICCL) 创办,每两年举办一次。今年的会议由欧洲语言资源协会(ELRA)和国际计算语言学委员会(ICCL)联合举办,该会议将于2024年5月20日至25日意大利都灵的Lingotto会议中心举行。
论文题目:MCTS: A Multi-Reference Chinese Text Simplification Dataset
作者:崇瑞宁、鲁鹿鸣、杨麟儿、聂锦燃、刘正皓、王硕、周姝含、李曜馨、杨尔弘
合作单位:东北大学、清华大学
通讯作者:杨麟儿
论文摘要:文本简化旨在通过重写转换使文本更易于理解。长期以来,对中文文本简化的研究十分有限。其中一个重要原因是缺乏通用的评估数据。本文介绍了一个多参考的中文文本简化数据集MCTS,详细描述了数据集的标注过程并进行了深入分析。此外,本文还评估了一些无监督方法和先进的大型语言模型的性能。同时,我们提供了用于训练的中文文本简化平行数据,这些数据是通过机器翻译和英文文本简化得到的。我们希望通过这项基础性工作建立对中文文本简化的基本认识,并为未来的研究提供参考。
论文:https://arxiv.org/abs/2306.02796
GitHub:https://github.com/blcuicall/mcts